Introduction à la modélisation générative : aller au-delà de la discrimination
Nous passons de la modélisation discriminative, qui résolvait les problèmes de classification et de régression en apprenant la probabilité conditionnelle $P(y|x)$, vers le domaine sophistiqué de la modélisation générative. Notre objectif central passe désormais à l'estimation de densité: apprendre la distribution de données sous-jacente complète $P(x)$ elle-même. Ce changement fondamental nous permet de capturer les dépendances complexes et la structure intrinsèque des jeux de données à haute dimension, en allant au-delà de la simple séparation par une frontière vers une véritable compréhension et synthèse des données.
1. L'objectif génératif : modélisation de $P(x)$
L'objectif d'un modèle génératif est d'estimer la distribution de probabilité $P(x)$ à partir de laquelle proviennent les données d'entraînement $X$. Un modèle génératif réussi peut accomplir trois tâches essentielles : (1) l'estimation de densité (attribution d'une note de probabilité à une entrée $x$), (2) l'échantillonnage (génération de nouveaux points de données $x_{new} \sim P(x)$), et (3) l'apprentissage non supervisé de caractéristiques (découverte de représentations significatives et désenchevêtrées dans un espace latent).
2. Taxonomie : vraisemblance explicite vs. implicite
Les modèles génératifs sont fondamentalement catégorisés selon leur approche de la fonction de vraisemblance.Modèles de densité explicite, tels que les autoencodeurs variationnels (VAEs) et les modèles de flux, définissent une fonction mathématique de vraisemblance et tentent de la maximiser (ou sa borne inférieure).Modèles de densité implicite, le plus célèbre étant les réseaux antagonistes génératifs (GANs), évitent entièrement le calcul de la vraisemblance, apprenant plutôt une fonction de correspondance pour échantillonner à partir de la distribution $P(x)$ en utilisant un cadre d'entraînement antagoniste.
Objectif : Déterminer si $x_{new}$ est une anomalie (fraude).
Le modèle doit évaluer la probabilité (ou la vraisemblance) $P(x_{new})$. Si $P(x_{new})$ tombe en dessous d'un seuil prédéfini $\tau$, ce qui signifie que le nouveau point est statistiquement improbable sous la distribution apprise des transactions normales, il est signalé comme une anomalie.